Agile Data Science-এ মডেলের কার্যকারিতা মাপার জন্য বিভিন্ন মেট্রিক্স ব্যবহার করা হয়, যা ডেটা বিজ্ঞানী এবং ডেটা ইঞ্জিনিয়ারদেরকে তাদের মডেলগুলোর কার্যকারিতা এবং নির্ভরযোগ্যতা মূল্যায়ন করতে সহায়তা করে। নিচে Accuracy, Precision, Recall, এবং F1 Score সম্পর্কে বিস্তারিত আলোচনা করা হলো।
১. Accuracy
Accuracy হল মোট সঠিক প্রেডিকশনের শতাংশ, যা মোট নমুনার সংখ্যা দ্বারা ভাগ করা হয়। এটি মডেলের সঠিকতার একটি সাধারণ মেট্রিক।
- TP (True Positive): সঠিকভাবে পজিটিভ প্রেডিকশন।
- TN (True Negative): সঠিকভাবে নেগেটিভ প্রেডিকশন।
- FP (False Positive): ভুলভাবে পজিটিভ প্রেডিকশন।
- FN (False Negative): ভুলভাবে নেগেটিভ প্রেডিকশন।
ব্যবহার:
Accuracy সাধারণত ব্যবহার করা হয় যখন ডেটাসেট ইমব্যালেন্সড নয় এবং পজিটিভ ও নেগেটিভ ক্লাসের সংখ্যা তুলনামূলক সমান। তবে, এটি যখন একটি ক্লাস অপরের চেয়ে অনেক বেশি হয়, তখন এটি বিভ্রান্তিকর হতে পারে।
২. Precision
Precision হল সঠিকভাবে পূর্বাভাস করা পজিটিভ প্রেডিকশনের শতাংশ। এটি মডেল কতটুকু সঠিকভাবে পজিটিভ ক্লাসের সংখ্যা পূর্বাভাস করে তা নির্দেশ করে।
ব্যবহার:
Precision গুরুত্বপূর্ণ যখন ফালস পজিটিভগুলি সমস্যা তৈরি করতে পারে। উদাহরণস্বরূপ, যদি কোনও চিকিৎসা পরীক্ষায় ভুল পজিটিভ ফলাফল হয়, তবে তা রোগীর ওপর নেতিবাচক প্রভাব ফেলতে পারে।
৩. Recall
Recall (বা Sensitivity) হল সঠিকভাবে পূর্বাভাস করা পজিটিভ প্রেডিকশনের শতাংশ, যা মোট আসল পজিটিভের সংখ্যা দ্বারা ভাগ করা হয়।
ব্যবহার:
Recall তখন গুরুত্বপূর্ণ হয় যখন ভুল নেগেটিভগুলি গুরুত্বপূর্ণ। উদাহরণস্বরূপ, একটি রোগ শনাক্তকরণ মডেলের ক্ষেত্রে, যেখানে রোগী যদি শনাক্ত না হয় তবে তা মারাত্মক হতে পারে।
৪. F1 Score
F1 Score হলো Precision এবং Recall-এর একটি হারমোনিক গড়, যা এই দুইটি মেট্রিক্সের মধ্যে ভারসাম্য বজায় রাখতে সহায়তা করে।
ব্যবহার:
F1 Score তখন ব্যবহার করা হয় যখন Precision এবং Recall উভয়কে একই গুরুত্ব দেওয়া প্রয়োজন এবং ডেটাসেটটি ইমব্যালেন্সড হতে পারে। এটি নিশ্চিত করে যে মডেল পজিটিভ ফলাফলের দিক থেকে কার্যকরী।
উদাহরণ: কনফিউশন ম্যাট্রিক্স
ধরা যাক, একটি মডেলের কনফিউশন ম্যাট্রিক্স নিচের মতো:
| Predicted Positive | Predicted Negative | |
|---|---|---|
| Actual Positive | TP = 70 | FN = 30 |
| Actual Negative | FP = 10 | TN = 90 |
এখন, আমরা মেট্রিক্সগুলো হিসাব করতে পারিঃ
Accuracy:
- \text{Accuracy} = \frac{70 + 90}{70 + 10 + 90 + 30} = \frac{160}{200} = 0.80 \text{ (or 80%)}
Precision:
- \text{Precision} = \frac{70}{70 + 10} = \frac{70}{80} = 0.875 \text{ (or 87.5%)}
Recall:
- \text{Recall} = \frac{70}{70 + 30} = \frac{70}{100} = 0.70 \text{ (or 70%)}
F1 Score:
- \text{F1 Score} = 2 \times \frac{0.875 \times 0.70}{0.875 + 0.70} = 2 \times \frac{0.6125}{1.575} \approx 0.778 \text{ (or 77.8%)}
সংক্ষেপে
- Accuracy: মোট সঠিক প্রেডিকশনের হার।
- Precision: সঠিকভাবে পূর্বাভাস করা পজিটিভ প্রেডিকশনের হার।
- Recall: আসল পজিটিভের মধ্যে সঠিকভাবে পূর্বাভাস করা পজিটিভের হার।
- F1 Score: Precision এবং Recall-এর মধ্যে ভারসাম্য বজায় রাখা।
Agile Data Science-এ এই মেট্রিক্সগুলো মডেলের কার্যকারিতা মূল্যায়নে গুরুত্বপূর্ণ ভূমিকা পালন করে, এবং সঠিক মেট্রিক্স নির্বাচন করা প্রয়োজন যাতে প্রকল্পের লক্ষ্য পূরণ হয়।
Read more